iT邦幫忙

2024 iThome 鐵人賽

DAY 26
0
AI/ ML & Data

軟體工程師的脫魯日誌-持續介紹hardcore AI研究直到脫魯🥹系列 第 26

Day26: AI會不會取代SWE? 讓我們把問題拆開來看

  • 分享至 

  • xImage
  •  

一樣,在八月底的時候(2024.08),一間叫COSINE的新創公司開發了名叫Genie的AI軟體工程師,
在軟體工程解題Benchmark SWE-BENCH中解了30%的題目,在目前的AI Software Engineer排行中排名第一。
https://ithelp.ithome.com.tw/upload/images/20241005/20169030Xw4UDUQPZV.png

所以在官方網站,他也用了一個很邱的標題「Genie: SOTA Software engineering model」

嘖,在想想軟體工程師會不會被取代之前,其實應該要把這個問題拆開來看:
1.雖說SWE-BENCH是目前最有公信力的Software Solution Benchmark,但這只包含了Python專案。世界上多數的專案還是由多個語言組成(ex. Flask專案就有可能由Flask+vue.js和HTML,CSS等標籤語言組成)。

2.延續上題,所謂的「跨語言(Cross-lingual)」不是「多語言(Multilingual)」,而是用「請改寫以下句子:Today I will go to school to study English」這樣兩種語言混合的方式與AI對話。這種跨語言的方式很難讓LLM理解同一句話不同語言的語義,而現在的軟體工程常常就是這種多種複合式程式組合的專案。[1]

3.要教會AI用工具或寫程式(Debug)其實不簡單,現在有很多研究還是聚焦在要怎麼讓LLM把程式寫好[2]。況且如果一步一步帶著AI解問題,這可能要用上萬次實例及示範,且這還不包含要怎麼設計強化學習算法。

Reference.
Ref.
[1] Grammarly - MEDIT: Multilingual Text Editing via Instruction Tuning
https://doi.org/10.18653/v1/2024.naacl-long.56

[2] Standford - Teach AI How to Code: Using Large Language Models as Teachable Agents for Programming Education
https://doi.org/10.1145/3613904.3642349


上一篇
Day25: LLMs 刷題的真相
下一篇
Day27: TacticAI - AI也有可能取代教練?
系列文
軟體工程師的脫魯日誌-持續介紹hardcore AI研究直到脫魯🥹30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言